Ez egy előző félévben kiírt, archivált téma.
A deep learning alapú ún. end-to-end beszédleiratozó rendszerek könnyen alkalmazhatók ma már szinte bármilyen nyelve, rögzített hanganyagokra. Azonban a valós idejű és egyben kis késleltetésű megoldások a legutóbbi időkig várattak magukra. A korszerű attention alapú megközelítések most jutottak el arra a szintre, hogy a nagy (többé-kevésbé) pontosságot megőrizve minimális, élő feliratozást is lehetővé tévő késletetéssel használhatók legyenek. A hallgató feladata a legkorszerűbb, gyakorlatban is alkalmazható megoldások megismerése, alkalmazása és kiértékelése magyar (vagy egyéb megbeszélt) nyelvre. Ajánlott deep learning ASR (Automatic Speech Recognition) toolkitek: WeNet, NVIDIA-NeMo, K2. A feladat folyamatos munkavégzést kíván, a Python és PyTorch ismerete jelentős előnyt jelent. Diplomatervig (sőt akár tovább) is vihető a téma. Angol olvasási készség, linux alapismeretek nehezen nélkülözhetőek.